AI九思:用AI焕新古汉语之美
阅读本文前,请先点击上方的蓝色字体“语言学”,再点击关注,这样就能天天免费收到精彩文章了。每天都有更新,完全是免费订阅,请放心关注!
句读注疏翻译,探求古汉语之菁华
文字音韵训诂,赓续古汉语之绝学
01
引言
ChatGPT、Gemini、文心一言、讯飞星火等通用领域大语言模型得到广泛应用,展现出强大的语言理解和生成能力。但是,它们在处理古汉语时,表现却不尽人意,具体体现在以下两个方面:
01
1、在古汉语信息处理下游任务上存在不足。以文白翻译为例:
注:因为没有识别出“得”(通“德”,感激)这一通假字,致使原句翻译存在错误。
02
2、无法为古汉语学习、研究、教学、应用等相关用户提供有关古汉语问题的专业回答。以“请解释‘古汉语’”、“请解释古汉语音韵学中代表中古汉语声类的‘三十六字母’”两个问题为例:
注:以上回答看似答得一本正经,但是细致看去却漏洞颇多,如本属上古汉语代表作品的《诗经》《楚辞》被归到了中古汉语阶段、古汉语分期的时间界限存在问题、凭空杜撰出《切韵会通》这本书、“三十六字母”罗列也不准确等。
究其原因,一方面是缺乏古汉语领域诸如文白翻译、句读标点、实体识别等下游任务高质量数据集的微调,针对这一问题,已有AI太炎、荀子古籍大语言模型等相关工作珠玉在前。但另一方面,我们认为古汉语专业知识的注入同样甚至更为重要,不仅可以为古汉语教学、研究、应用等相关用户提供有关古汉语问题的专业回答,还可以更好地“指导”模型处理古汉语文白翻译、句读标点、实体识别等下游任务。
基于此,我们全面构建、全新推出掌握古汉语专业知识、具备古汉语应用能力的古代汉语大语言模型——AI九思,以期成为古代汉语大语言模型发展的试金之石、引玉之砖。
02
你好!AI九思!
模型
简介
AI九思是由华中科技大学人文学院、中国语言研究所汉籍数字化实验室刘根辉教授团队构建研发的古代汉语大语言模型,该模型不仅具备古汉语的应用能力,能够较好地完成智能句读标点、词法分析、文白翻译等古汉语信息处理任务,更掌握文字、音韵、训诂、目录、版本、校勘等古汉语多领域的专业知识,能够为用户提供有关古汉语问题的专业回答。
命名
缘起
“九思”出自《论语·季氏篇第十六》,孔子曰:“子有九思:视思明,听思聪,色思温,貌思恭,言思忠,事思敬,疑思问,忿思难,见得思义。”
1
代表AI九思的精神内核
AI九思从立项到上线,研发团队从方案的确立、数据的收集加工精校、模型的训练调优,经过了长时间多方位的深入思考、沟通、讨论,一步一个脚印地践行着“君子九思”的精神,“君子九思”也自然铸就为AI九思模型的精神内核。
2
致敬朱九思先生
以AI九思致敬原华中工学院(华中科技大学前身)党委书记、院长、我国著名教育家朱九思先生。正是在朱先生的大力支持和推动下,华中科技大学中国语言研究所于1980年正式成立,成为全国理工科大学创办的第一个文科研究所。经过几代人的不懈努力和筚路蓝缕,中国语言研究所发展至今已成为具有鲜明的华中大特色(强基础、重交叉、小而精、创特色)、拥有一级学科博士点和博士后科研流动站的中国语言文学一级学科阵地。
数据集
构建
高质量的数据是大语言模型构建的基础,不同于既往研究者主要采集质量参次不齐的网络资源,AI九思数据主要源于古汉语领域100余本经典权威的纸本书籍,包括中华书局出版的一些古籍译注本、古汉语领域的经典教材、参考书等。
网络数据部分,仅采用北京师范大学开源的通假字资源库和北京大学数字人文研究中心提供可供科研使用的GuNER2023古籍命名实体识别数据集。但在实际使用过程中我们也发现数据集中存在一些可能由于多人标注导致的漏标、错标问题,因此我们又对这些数据进行了人工核验,以保证数据质量的统一。
首先,AI九思团队对原始数据来源的书籍进行扫描和OCR识别处理,获取初始电子版本;其次,按照不同任务类型、不同知识领域进行分工合作,依照团队编订的数据集构建标注规范,对初始电子版本数据进行人工筛选、标注、重点知识总结梳理、精校、编辑入库,得到精校电子版本;紧接着,使用Python按任务类型、知识领域,自动匹配预先设置好的多样的prompt指令,完成整个古汉语大语言模型数据集的构建。
最后,AI九思古汉语大语言模型团队构建了涵盖古汉语语言知识、古汉语语言能力两大模块11个子类别,共计110000条的高质量古汉语大语言模型数据集。
模型
训练
AI九思以阿里云通义千问为基座模型,在A100 80G高性能AI服务器上,使用团队构建的古汉语大语言模型指令微调数据集,先后采用了LoRA(low-rank adaptation)参数高效微调和全参数微调的方法进行了指令微调,增强了大模型在古代汉语这一垂直领域多项任务上、多类知识领域中的理解和生成能力。
03
AI九思,登场!
01
1、古代汉语文字学知识问答,能够回答有关古代汉语文字学方面的专业问题。
02
2、古代汉语音韵学知识问答,能够回答有关古代汉语音韵学方面的专业问题。
03
3、古代汉语训诂学知识问答,能够回答有关古代汉语训诂学方面的专业问题。
04
4、古典文献目录学知识问答,能够回答有关古典文献目录学方面的专业问题。
05
5、古典文献版本学知识问答,能够回答有关古典文献版本学方面的专业问题。
06
6、古典文献校勘学知识问答,能够回答有关古典文献校勘学方面的专业问题。
07
7、古代汉语自动句读标点,可以快速完成古汉语文本的断句和标点。
08
8、古代汉语智能词法分析,可以较为准确地完成古汉语文本的自动分词和词性标注。
09
9、古代汉语命名实体识别,可以自动进行古汉语文本中的实体信息抽取。
10
10、古代汉语通假字识别,可以智能识别出古汉语文本中的通假字并注音、解释。
11
11、古代汉语文白翻译,能够为古诗词、文言文等古汉语文本提供高质量的文白翻译。
04
开启内测
目前,AI九思古代汉语大语言模型V1.0版本已在“魔搭”平台上线,全面开启内测。
在内测阶段,我们将邀请部分用户参与测试,收集用户的宝贵意见和建议,以便我们不断优化和完善模型。
如果您喜欢我们的工作,迫不及待地想要在您的工作中与AI九思对话切磋,欢迎扫码填写您的相关信息,我们将邀请您率先体验AI九思的强大功能,并与我们共同参与到产品的改进、更新过程中。让我们共同见证AI九思古代汉语大语言模型的成长和发展!
我们期待您的参与,让我们携手共同推动古代汉语大语言模型的发展,探求古汉语之菁华,赓续古汉语之绝学,传承古汉语之美!
内测报名地址:
https://www.wjx.cn/vm/PMzhAUN.aspx#
扫码参加内测!
05
未来展望
AI九思古代汉语大语言模型既是华中科技大学人文学院、中国语言研究所汉籍数字化实验室多年来深耕古汉语信息处理相关学科交叉研究的薄发之作,也是团队探索和推动古代汉语大语言模型发展的第一步。未来AI九思团队将进一步构建高质量的古代汉语大语言模型数据集、搭建大语言模型古代汉语知识&能力评测体系、研发更多高阶版本的“AI九思”大模型,拓展其在古汉语教育、研究、传承、发扬等方面的应用领域,敬请期待!
研发团队主要成员:
成 员 单 位|华中科技大学人文学院、中国语言研究所汉籍数字化实验室
指 导 老 师|刘根辉教授
团队负责人|刘根辉教授
数据集构建|陈旷心、龚丹、贺心雨、冷谦益、李祎萌、李志芳、刘金柱、罗捷春、罗婉滢、彭立雪、王锦绣、谢雨霏、徐君词、杨纯、余静静、袁方、张润哲、张雪晨、郑苏楠(按姓氏拼音排序)
模 型 训 练|刘金柱(在读博士三年级)
模 型 部 署|刘金柱(在读博士三年级)
模 型 上 线|刘金柱(在读博士三年级)
致谢:
本研究受到国家社科基金重大项目“明代至民国汉语非韵书罕见同音类聚文献的音韵研究及数据库建设”(21&ZD297)、国家社科基金重大项目“草创时期甲骨文考释文献的整理与研究”(20&ZD307)、中央高校基本科研业务费“《册府元龟》语料库建设、整理与研究”(2020WKYXZX004)、中央高校基本科研业务费“《册府元龟》引书研究”(21WKFZZX016)的资助。
“语言学”专门发布最新的语言研究资讯、社会热点话题的语言学解析等内容;
“简牍学”专门发表简牍学及出土文献相关研究成果、学术信息;
“讲座与学术”发布人文社科讲座信息和学术热点话题。
敬请新老朋友关注“语言学”“简牍学”“讲座与学术”公众号,以便及时获取最新资讯!
书讯 | 郭锡良 编著、雷瑭洵 参订:《汉字古音表稿》(增订本)出版
江蓝生丨中心词语义正向偏移的类型和动因,《中国语文》2022年第4期
推广内容如有侵权请您告知,我们会在第一时间处理或撤销;互联网是一个资源共享的生态圈,我们崇尚分享。其他平台转载请注明(来源:语言学)。
转载仅供思考,不代表【语言学】立场。
今日文章就到这~近期,微信公众号信息流改版。每个用户可以设置常读订阅号,这些订阅号将以大卡片的形式展示。因此,如果不想错过“语言学”的文章,你一定要进行以下操作:
第一步:点击顶部蓝字“语言学”进入公众号主页
第二步:点击右上角“...”
第三步:点击“设为星标”
编辑:王蓉
审核:杨忠霞
来源:“古代汉语信息处理”公众号